论文简介
- 地址:Deep Watershed Transform for Instance Segmentation
- 论文主要是使用了DNN的思想,实现end-to-end的实例分割
关于实例分割的研究进展
- 传统的分水岭算法容易造成过分割。改进的分水岭算法有
- 首先预估instance的位置,然后再确定basin。
- 启发式优化算法对分水岭算法的basin的相对深度进行估计,但是模型精度较差。
上面2种方法实现起来都比较困难。
- 基于候选区域的refinement
- 深度结构化模型:结合DNN与CRF等
模板匹配:使用CNN提取图像特征,对一个instance中的每个pixel赋予label - RNN:记录上一帧instance分割结果,用于预测下一帧的instance分割。
- 使用CNN与通用的聚类算法,直接给出instance的数目与bounding box,同时给出每个pixel的置信度得分。
- 递归候选区域
主要优点
- 直接学习分水岭变换的能量,每个basin都对应一个instance,同时分割脊在能量域中的高度都相同。
- 主要使用了end-to-end的深度分水岭算法,模型精度比state-of-art好很多。
- 分割结果与instance的个数无关,这与一些RNN方法不同。
流程
- 模型将RGB原图与语义分割结果作为输入,相当于是一个4-channel的图像,本文中使用了PSPNet的语义分割结果。
- 过滤掉语义分割中的背景部分。
- 对语义分割结果的label进行缩放,使其成为等间隔的。
- 构建Direction Network,输出为每个像素的能量梯度(x&y,共2通道),在这里面,使用VGG-Net进行特征提取,将MSE作为DN的损失函数。
- 构建Watershed Transform Network(WTN),损失函数是修正的交叉熵函数。
- 构建级联网络,对网络进行fine-tune,将groud truth的距离变换作为训练目标。
- 后处理:对instance分割结果进行膨胀等结构化的处理,去除一些面积很小的instance。